大多数最新的说话者验证架构都采用了多尺度处理和频道注意机制。这些模型的卷积层通常具有固定的内核大小,例如3或5。在本研究中,我们进一步为这一研究采用了选择性核心注意(SKA)机制。SKA机制允许每个卷积层以数据驱动的方式自适应地选择内核大小。它基于利用频率和通道域的注意机制。我们首先将现有的SKA模块应用于我们的基线。然后,我们提出了两个SKA变体,其中第一个变体在ECAPA-TDNN模型的前面应用,另一个变体与RES2NET骨干块结合使用。通过广泛的实验,我们证明了我们提出的两个SKA变体始终提高性能,并在三个不同的评估方案上进行测试时是互补的。
translated by 谷歌翻译
在本文中,我们提出了自我监督的发言者表示学习策略,该策略包括在前端的引导平衡扬声器表示学习和在后端的不确定性意识的概率扬声器嵌入训练。在前端阶段,我们通过具有均匀性正则化术语的引导训练方案来学习扬声器表示。在后端阶段,通过最大化属于同一扬声器的语音样本之间的相互似然分数来估计概率扬声器嵌入,这不仅提供扬声器表示,而且提供数据不确定性。实验结果表明,拟议的举止均衡训练策略可以有效地帮助了解扬声器表示,并以基于对比学习的传统方法优越。此外,我们展示了集成的两级框架在eer和mindcf方面进一步改善了VoxceleB1测试中的扬声器验证性能。
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
最近的深度学习模型在言语增强方面已经达到了高性能。但是,获得快速和低复杂模型而没有明显的性能降解仍然是一项挑战。以前的知识蒸馏研究对言语增强无法解决这个问题,因为它们的输出蒸馏方法在某些方面不符合语音增强任务。在这项研究中,我们提出了基于特征的蒸馏多视图注意转移(MV-AT),以在时域中获得有效的语音增强模型。基于多视图功能提取模型,MV-AT将教师网络的多视图知识传输到学生网络,而无需其他参数。实验结果表明,所提出的方法始终提高瓦伦蒂尼和深噪声抑制(DNS)数据集的各种规模的学生模型的性能。与基线模型相比,使用我们提出的方法(一种用于有效部署的轻巧模型)分别使用了15.4倍和4.71倍(FLOPS),与具有相似性能的基线模型相比,Many-S-8.1GF分别达到了15.4倍和4.71倍。
translated by 谷歌翻译
识别异常文档,其内容与语料库中的大多数文档不同,在管理大型文本集合中发挥了重要作用。但是,由于没有关于Inlier(或目标)分布的明确信息,现有的无监督异常探测器可能会根据语料库中的异常值的密度或多样性进行不可靠的结果。为了解决这一挑战,我们介绍了一项新的任务,称为类别无类别检测,该任务旨在通过使用类别名称作为弱监管来将文档与Inlier(或目标)类别的语义相关。在实践中,该任务可以广泛适用于,它可以灵活地根据用户的兴趣指定目标类别的范围,同时仅需要目标类别名称作为最小指导。在本文中,我们介绍了一个类别超类的检测框架,它有效地根据其特定于类别的相关性得分,有效地测量每个文档的一个目标类别之一。我们的框架采用两步方法; (i)它首先通过利用在文本嵌入空间中编码的单词文件相似度,然后(ii)通过使用伪标签来计算伪标签以计算置信度来生成所有未标记的文档的伪类别标签从其目标类别预测。真实世界数据集的实验表明,我们的框架在指定不同目标类别的各种场景中的所有基线方法中实现了最佳检测性能。
translated by 谷歌翻译
占用映射已被广泛用于代表自动驾驶机器人的周围环境,以执行导航和操纵等任务。尽管在2D环境中进行了占用映射,但很少有适合3-D动态占用映射的方法,这对于空中机器人必不可少。本文提出了一种新颖的3-D动态占用映射算法,称为DSK3DOM。我们首先建立了一种贝叶斯方法,以基于随机有限集理论来依次更新占用图作为测量流。然后,我们用Dempster-Shafer域中的粒子近似它,以实现实时计算。此外,该算法将基于内核的推论与Dirichlet基本信念分配相关,以从稀疏测量中实现密集的映射。通过模拟和实际实验证明了所提出算法的功效。
translated by 谷歌翻译
超声检查是乳腺癌诊断的重要常规检查,这是由于其无创,无辐射和低成本的特性。但是,由于其固有的局限性,乳腺癌的诊断准确性仍然受到限制。如果我们可以通过乳房超声图像(BUS)精确诊断乳腺癌,那将是一个巨大的成功。已经提出了许多基于学习的计算机辅助诊断方法来实现乳腺癌诊断/病变分类。但是,其中大多数需要预定的ROI,然后对ROI内的病变进行分类。常规的分类骨架,例如VGG16和RESNET50,可以在没有ROI要求的情况下获得有希望的分类结果。但是这些模型缺乏解释性,因此限制了它们在临床实践中的使用。在这项研究中,我们提出了一种具有可解释特征表示的超声图像中乳腺癌诊断的新型无ROI模型。我们利用解剖学的先验知识,即恶性肿瘤和良性肿瘤在不同的组织层之间具有不同的空间关系,并提出了悬停转换器来提出这种先验知识。提出的悬停式跨界块水平和垂直地提取层间和层内空间信息。我们进行并释放一个开放的数据集GDPH&SYSUCC,以用于公共汽车中的乳腺癌诊断。通过与四个基于CNN的模型和两个Vision Transformer模型进行比较,通过五倍的交叉验证来评估所提出的模型。它通过最佳模型可解释性实现最新的分类性能。同时,我们提出的模型在仅给出一张公交图像时,在乳腺癌诊断方面优于两名高级超声检查员。
translated by 谷歌翻译
众所周知,深度学习方法是渴望数据的,它需要大量标记的样本。不幸的是,大量的交互式样品标记工作极大地阻碍了深度学习方法的应用,尤其是对于需要异质样本的3D建模任务。为了减轻对FA \ c {C} ADS的3D建模的数据注释的工作,本文提出了一种半监督的对抗识别策略,该策略嵌入了逆程序建模中。从纹理LOD-2(详细级别)模型开始,我们使用经典的卷积神经网络来识别来自图像补丁的类型并估算Windows的参数。然后将窗口类型和参数组装到程序语法中。一个简单的程序引擎是在现有的3D建模软件中构建的,产生了细粒的窗户几何形状。为了从一些标记的样品中获得有用的模型,我们利用生成对抗网络以半监督的方式训练特征提取器。对抗训练策略还可以利用未标记的数据,使训练阶段更加稳定。使用公开可用的FA \ c {C} ADE图像数据集的实验表明,在同一网络结构下,提出的培训策略可以提高分类精度的提高约10%,参数估计提高了50%。此外,在针对具有不同fa \ c {c} ADE样式的不同数据测试时,性能提高更为明显。
translated by 谷歌翻译
现有研究突出物体检测(SOD)对专注于提取与边缘信息的不同对象和聚合多级功能来提高SOD性能。为了实现令人满意的性能,该方法采用精细的边缘信息和低多级差异。然而,不能实现性能增益和计算效率,这有动力研究了我们研究现有编码器解码器结构中的低效率,以避免这种权衡。我们提出了示踪剂,通过结合引导的跟踪模块来检测具有显式边缘的突出物体。我们使用快速傅里叶变换在第一编码器的末尾采用掩蔽边缘注意模块,以将精细边缘信息传播到下游特征提取。在多级聚合阶段,联盟注意力模块识别互补信道和重要的空间信息。为了提高解码器性能和计算效率,我们最大限度地减少了对对象注意模块的解码器块使用。该模块从精细通道和空间表示中提取未检测到的对象和边缘信息。随后,我们提出了一种自适应像素强度损失函数来处理与传统损耗函数不同的像素相对重要的像素,其同样处理所有像素。与13现有方法的比较显示,示踪剂在五个基准数据集上实现了最先进的性能。特别地,追踪性3(TE3)优于LDF,现有方法,同时需要1.8倍的学习参数,更少的时间; TE3速度快5倍。
translated by 谷歌翻译
联邦学习是一种广泛采用的方法,可以通过分布式数据训练神经网络。一个主要限制是数据异构地分布时发生的性能下降。虽然许多作品已经尝试解决这个问题,但这些方法是因为它们的内容而不是对神经网络的理解。在这项工作中,我们验证了神经网络中只有某些重要层数需要正规化以获得有效的培训。我们还验证了中心内核对齐(CKA)最精确地计算在不同数据上培训的神经网络层之间的相似性。通过在培训期间将基于CKA的正则化应用于重要层,我们显着提高了异构环境的性能。我们展示了Fedcka:一个简单的框架,在各种深度学习任务上出于以前的最先进方法,同时提高了效率和可扩展性。
translated by 谷歌翻译